查看原文
其他

实证中最佳控制变量组合使结果显著的程序及用法?

群友@老白 计量经济圈 2023-07-27

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

实证中最佳控制变量组合使结果显著的程序及用法?

*不是让你成为干data mining工作的reg moneky,而在于引出一种模型选择方法。来自@老白投稿分享学习心得。

Gluzmann, P., & Panigo, D. (2015). Global Search Regression: A New Automatic Model-selection Technique for Cross-section, Time-series, and Panel-data Regressions. The Stata Journal, 15(2), 325–349.

在建立模型之后总觉得控制变量的选择是一件很让人恼火的事,今天就跟大家分享一个最优控制变量的筛选方法,Stata中的gsreg程序。
下面以高维固定效应模型为示例,对gsreg程序的使用方法进行讲解。
gsreg y x1 x2 x3 x4 x5, fixvar(x) replace ncomb(n) cmdest(reghdfe) cmdoptions(absorb(year id)) vce(cluster id))
gsreg 因变量 可能待控制的混淆变量 , fixvar( 自变量) replace ncomb(n) cmdest(回归模型)  cmdoptions(回归模型的附加选项)
其中ncomb(n)为需要筛选的控制变量个数,此处也能以区间形式表示,例如ncomb(1-4)
以reghdfe高维固定为例,我们从10个混淆变量中筛选出最优组合。
gsreg y x1 x2 x3 x4 x5 x6 x7 x8 x9 x10, fix(x) replace cmdest(reghdfe) cmdoption(absorb(year id) vce(cluster id))
其中,y是因变量,x1到x10是可能待控制的混淆变量,最好他们满足good control的相关条件
fix(x)是自变量,x是需要被固定住的,毕竟我们主要筛选出控制变量的组合
cmdest()填入使用的回归模型,此处选择的是reghdfe,其他备选项包括 regress, xtreg, probit, logit, areg, qreg 和plreg之类的回归模型
cmdoption()是回归模型的附加选项,例如此处用到了双重固定效应absorb(year id) 和聚类标准误vce(cluster id),也可以使用稳健标准误vce(robust)。
通过gsreg筛选出来控制变量的最优组合后,可以直接使用reghdfe进行回归了。下面假设选出来的最优控制变量组合是x1和x2,
reghdfe y x x1 x2 absorb(year id) vce(cluster id)
综上,第一个gsreg式子会自动筛选控制变量,来获得一个更高的显著性。第二个reghdfe式子就是用最优控制变量组合获得高维固定效应回归。

此外,gsreg还可以使用因变量和自变量的滞后项作为待筛选的控制变量。
gsreg depvar ocand1 ocand2, ncomb(3) dlags(1/4)  //因变量的1-4期滞后项作为待筛选的控制变量
gsreg depvar ocand1 ocand2, ncomb(3) ilags(1/4)  //自变量的1-4期滞后项作为待筛选的控制变量

此外,gsreg还可以使用待筛选控制变量的交互项组合作为待筛选的控制变量,如下:
gsreg depvar ocand1 ocand2 ocand3, ncomb(2,3) interactions

使用工具变量回归的控制变量筛选呢?也是可以的,如下二阶段二乘法中的控制变量筛选程序。
gsreg y x1 x2, cmdest(ivregress 2sls) cmdiveq(x= iv1 iv2)
gsreg y x1 x2, cmdest(ivregress 2sls) cmdiveq(x2= iv1 vi2)

当然,还有很多其他功能,可以自行查看gsreg的帮助文档,例如,gsreg还能做vselect能做的东西。


关于控制变量,参看:1.什么时候应该使用回归分析?控制变量意味着什么?2.如何选择正确的因变量(控制变量),让你的计量模型不再肮脏,3.调节变量, 中介变量和控制变量啥区别与联系? 4.控制、调节和中介变量,系说,5.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了?6.被解释变量比解释变量的层级更高的模型设定合理么?7.审稿: 协变量何时重要? 哪个重要, 有多重要?8.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系,9.因果推断专题:6.再谈混淆变量,10.什么时候需要标准化回归模型中的变量?11.因果推断专题:1.混淆变量,12.虚拟变量回归模型是什么? 政策评估的前件,13.11种与机器学习相关的多元变量分析方法汇总,14.回归中各变量的数值相差过大有事, 又有什么问题?15.哦, 不, 回归符号反了, 我们该怎么办?16.回归系数与预期相反时, 我们能够采取的方法和思路有哪些?17.显著不显著的后背是什么, 非(半)参估计里解决内生性,18.在什么情况下多增加一个自变量后, 回归的R方会变小呢?19.控制变量选择问题: 如何鉴别好或不好的控制变量?附上14篇相关文章!20.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!21.如何选择合适的工具变量, 基于既有文献的总结和解释!22.如何选择合适的工具变量, 基于既有文献的总结和解释!23.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!24.社会网络计量经济学是什么?测度社会关系网中的同伴效应!25.社会网络分析最新文献和软件学习手册,26.添加一个新变量能使以前不显著的变量变得显著了?27.加入其他控制变量后, 估计系数的符号相反了?28.估计工具变量回归时, 是否必须将所有外生变量用作工具变量?29.实证分析观测数据的10条检查清单, 消除实证分析中许多潜在的虚假结果,30.可以在面板回归分析中使用时间序列解释变量或被解释变量吗?31.收入和年龄等变量是将其转化成有序离散变量还是当成连续变量进行回归呢?32.你确定找到一个好的工具变量了吗? 这将是一篇最值得你看的文章!33.因没阅读主编最新文章, 被知名期刊主编竟无情desk reject! 到底是什么方法方面的文章呢?34.审稿人有义务告诉你回归中可能的遗漏变量么?,35.回归中常数项显著说明模型中有遗漏变量问题?

拓展性阅读:"实证研究13篇"功夫秘笈, 中青年学者研究必备锦囊!关于各种因果识别方法的120份经典实证文献汇总”,②哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code,③因果推断的统计方法总结, 177份文献政策评估的计量方法综述, 包括最新因果推断方法在教育领域使用IV, RDD, DID, PSM多吗? 使用具体文献,⑥看完顶级期刊文章后, 整理了内生性处理小册子,⑤工具变量精辟解释, 保证你一辈子都忘不了,⑦DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征,⑧关于双重差分法DID的32篇精选Articles专辑!关于(模糊)断点回归设计的100篇精选Articles专辑!匹配方法(matching)操作指南, 值得收藏的16篇文章等,⑪MIT广为流传的政策"处理效应"读本,⑫DID的研究动态和政策评估中应用的文献综述,⑬最新政策效应评估的四种方法,⑭政策效应评估的基本问题,15.海归博导: 如果你想读我的博士生, 那请阅读并签署这份指导协议!16.TOP刊: 如果你找不到ideas,那就步行或淋浴吧!


下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

4年,计量经济圈近1500篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存